https://adcloud.compbio.ulaval.ca/index.php/s/SdDrKrkbq9QHCLn
Pour les protéines, miRNA et gènes, on possède les données de 150 échantillons. On a ensuite 142 variables pour les protéines, 184 pour les miRNA et 200 pour les gènes.
On peut voir sur les histogrammes que le type de données possédant le plus de variabilité est le type protéine. En effet, sa variabilité est comprise entre -100 et 250, même si on peut observer qu'elle est comme les autres centrée vers 0.
Il nous reste 142 protéines, 174 gènes et 82 miRNA.
Le gène avec le plus grand coefficient de variance de notre jeu de données est PLCD4. La protéine codée par ce gène peut jouer un rôle dans la croissance et la prolifération cellulaire. Son expression peut donc notamment être un marqueur de cancer. PLCD4 est situé sur le chromosome 2, et sa longueur est de 30749 nucléotides. La protéine correspondant à ce gène est Q9BRC7, d'une longueur de 762 nucléotides, mais n'est pas contenue dans notre jeu de données.
## Eigenvalues for the first 10 principal components, see object$sdev^2:
## PC1 PC2 PC3 PC4 PC5 PC6
## 4601.980533 46.705472 21.519114 12.661752 9.796326 8.634070
## PC7 PC8 PC9 PC10
## 7.445820 6.180146 5.062428 4.265798
##
## Proportion of explained variance for the first 10 principal components, see object$explained_variance:
## PC1 PC2 PC3 PC4 PC5 PC6
## 0.956078087 0.009703231 0.004470674 0.002630525 0.002035222 0.001793759
## PC7 PC8 PC9 PC10
## 0.001546896 0.001283948 0.001051738 0.000886235
##
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 0.9560781 0.9657813 0.9702520 0.9728825 0.9749177 0.9767115 0.9782584 0.9795423
## PC9 PC10
## 0.9805941 0.9814803
##
## Other available components:
## --------------------
## loading vectors: see object$rotation
Au vu de l'histogramme:
## Eigenvalues for the first 10 principal components, see object$sdev^2:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 33.720079 23.308702 9.887708 8.601462 7.448849 5.701675 4.198577 3.765421
## PC9 PC10
## 3.265814 3.045500
##
## Proportion of explained variance for the first 10 principal components, see object$explained_variance:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## 0.19379356 0.13395806 0.05682591 0.04943369 0.04280948 0.03276825 0.02412975
## PC8 PC9 PC10
## 0.02164035 0.01876904 0.01750288
##
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 0.1937936 0.3277516 0.3845775 0.4340112 0.4768207 0.5095889 0.5337187 0.5553590
## PC9 PC10
## 0.5741281 0.5916310
##
## Other available components:
## --------------------
## loading vectors: see object$rotation
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 0.1937936 0.3277516 0.3845775 0.4340112 0.4768207 0.5095889 0.5337187 0.5553590
## PC9 PC10 PC11 PC12 PC13 PC14 PC15 PC16
## 0.5741281 0.5916310 0.6081779 0.6244353 0.6385943 0.6513538 0.6638612 0.6761106
## PC17 PC18 PC19 PC20 PC21 PC22 PC23 PC24
## 0.6879322 0.6989173 0.7097864 0.7199659 0.7299126 0.7390624 0.7481000 0.7567805
## PC25 PC26 PC27 PC28 PC29 PC30 PC31 PC32
## 0.7650352 0.7729230 0.7806346 0.7882175 0.7952774 0.8018343 0.8082584 0.8145236
## PC33 PC34 PC35 PC36 PC37 PC38 PC39 PC40
## 0.8205177 0.8264586 0.8322492 0.8379899 0.8434759 0.8488578 0.8540964 0.8590180
## PC41 PC42 PC43 PC44 PC45 PC46 PC47 PC48
## 0.8637962 0.8685528 0.8729952 0.8773175 0.8815048 0.8855788 0.8895436 0.8934482
## PC49 PC50
## 0.8972873 0.9008139
Les 30 premières composantes expliquent 80% de la variabilité et elles sont donc sélectionnées.
Les dix variables contribuant le plus à l'axe 1 sont : ZNF552, C4orf34, KDM4B, FUT8, CCNA2, TTC39A, LRIG1, SEMA3C, PREX1, SLC43A3. Les graphiques représentant les variables sont actuellement très difficilement lisibles, on doit donc afficher les contributions des variables aux composantes à l'aide d'une commande.
On peut observer que la PCA sépare de façon assez distincte les individus des trois groupes selon les 2 premières composantes, malgré des frontières assez floues entre les groupes.
Les gènes sélectionnés par la spca pour la première composante sont : KDM4B, ZNF552, PREX1, TTC39A, STC2, LRIG1, C4orf34, MTL5, FUT8, SLC19A2. Pour la seconde composante principale, on a retenu APBB1IP, NCF4, FLI1, C1orf162, CSF1R.
Les variables retenues pour la troisième composante sont C1QB, Caspase.7_cleavedD198.
Sur la spls, on peut observer 7 clusters différents possédant une corrélation supérieure à 0.65 ou inférieure à -0.65 (3 protéines et 4 gènes).
## Design matrix has changed to include Y; each block will be
## linked to Y.
Les variables sélectionnées sur la première composante sont:
Par rapport à la PCA, on peut considérer que la PLS-DA permet de mieux retrouver nos trois groupes d'échantillons sur ce graphique par rapport aux deux premières composantes principales. En effet, les trois groupes sont ici clairement distincts dans l'espace du graphique, et les frontières entre groupes sont bien plus marquées. Il semblerait donc que la variabilité des données calculée par la PLS-DA permet de mieux expliquer les différences génétiques entre les groupes de nos échantillons.